译 Numpy Vs Pandas 表现比较
原文链接:http://gouthamanbalaraman.com/blog/numpy-vs-pandas-comparison.html
- Numpy比起Pandas消耗更少的内存
- 对于5w行或更少的数据,Numpy的表现普遍要好。
- 对于50w行或更多的数据,pandas的表现普遍要好。
- 对于5w到50w行的数据,就要取决于使用哪种操作。
对于15MM行的数据,pandas要使用内存1506m,Numpy要使用内存686m,pandas的内存要求是Numpy的两倍多。
对列进行操作
聚合操作mean,Numpy与pandas速度的比较。分界点在于10w行。
对于向量化操作符log,10w行以下Numpy更快,对于10w行以上两者差不多,但是pandas占用的内存要更大。
对于去重函数,pandas使用unique,numpy使用species。
对于有过滤条件的操作




对于列的向量化操作




留下一个疑问
pandas对于大量行的数据做了哪些优化,为什么性能得到了提升?